【1】TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment

【URL】http://arxiv.org/abs/2108.09980

【Time】2021-08-23

一、研究领域

对比学习,video-text对齐,多模态表示学习

二、研究动机

改进大规模预训练和下游特定任务的视频文本对齐

三、方法与技术

Framework 的三个组件:

(1)Video encoding module:先使用一些预训练的模型提取 input video 的特征,然后 Video Encoder 负责通过self attention处理这些 embedings ,得到 m 个 d 维视频特征(m是采样的帧数)

(2)Language encoding module:使用一些预训练的 tokenizer 和 BERT 对文本 token 化并提取 input text 的特征(句子开头和结尾会加[CLS]和[SEP]),然后由 Language Encoder 负责投影得到n个d维文本特征(注意保持 video 和 text Encoder 的输出维度相同为d)

(3)Multi-modal fusion module:它的输入是 video feature (md) 和 text feature (nd) ,输出是融合后的 feature ((m+n)*d)。在这个过程中,为了帮助它区分视频和语言token,使用标记类型嵌入层来学习两个嵌入,并将它们分别加到视觉和文本标记中。

Untitled

计算三个对比损失:

1)所有反例的句子级损失 L1;

2)所有反例的实词(名词、动词)的tokenlevel损失L2;

3)基于L1和L2在线采样的硬负例的句子级损失L3。

四、总结

旨在解决当前对比学习流程中存在的两个问题:缺少细粒度对齐和多模态融合采样效率低下。